[レポート] クラスメソッドxメソドロジック共催:イチから始めるデータ活用!『Databricks編』を開催しました。
アライアンス事業部 エンジニアグループ モダンデータスタック(MDS)チームのしんやです。
先日2024年03月06日(水)、クラスメソッド株式会社と株式会社メソドロジックの共催イベント『【毎週開催】メソドロジック社共催!イチから始めるデータ活用!8週連続ウェビナー』の第2回開催回である『Databricsとデータメッシュ編』を開催しました。
当エントリではその内容についてレポート致します。
目次
イベント概要
第3回目となる今回取り扱うテーマは『Databricsとデータメッシュ』です。
ちなみにプレスリリースで告知・紹介を行ったシリーズ開催内容は以下の通りとなっています。
- 1日目:2024年02月20日(火) イチから学ぶデータメッシュによるデータガバナンス
- 2日目:2024年02月28日(水) イチから学ぶSnowflake
- 3日目:2024年03月06日(水) イチから学ぶDatabricks
- 4日目:2024年03月13日(水) イチから学ぶImmuta
- 5日目:2024年03月21日(木) イチから学ぶFivetran
- 6日目:2024年03月28日(木) イチから学ぶdbt
- 7日目:2024年04月03日(水) イチから学ぶHightouch
- 8日目:2024年04月10日(水) イチから学ぶLooker
参考:
前回第2回目の開催レポートは以下をご参照ください。
イベントレポート
イチから学ぶDatabricksとデータメッシュ
- 登壇者:白石 章氏(株式会社メソドロジック 代表取締役)
00. はじめに
- 自己紹介&企業紹介
- 株式会社メソドロジックとしては2021年にDatabricks Partner Award: Consulting Partner Awardを受賞
- Hadoop/Sparkから10年以上のデータ分析基盤経験 エンタープライズ企業との仕事に特化
- データ戦略コンサルからデータエンジニア領域に注力、ユーザーのためになる技術を選択
01. Databricksとは
- 登場してからの歴史は結構長いサービス。ポイントとしてはDELTA LAKE, mlflow, Sparkのオープンソースクリエイター達が立ち上げた会社がDatabricks。
- データ&AIカンパニー
- Databricks社が提唱している「データレイクハウス」:全てのデータ(ログ、テキスト、音声、動画、画像など)に対するオープンで統合された基盤
- データレイクハウス+生成AI=データインテリジェンスプラットフォーム(皆様の組織全体のデータ+AIを民主化)
- Databricksを1枚画で説明するとこちら。Databricksはクラウドにおける、例えばAWSが全体で提供している(データ分析周りの)サービスを一つのサービスで提供しようとしているイメージが近いかもしれない。「共通ワークスペース」の概念が特徴的。従来手元で作業開発をしていたところが、この共通ワークスペース内で言語を切り替えながら柔軟に出来るようになった点が大きい。
02. DatabricksによるDataMesh(データメッシュ)のアプローチ
- データ分析基盤を作りたい、プロジェクトを立ち上げたいという要望に対して様々な仮題解決が必要。
- そのうえで、データを一箇所に集めなければいけないという誤解も生まれることがある。
- DataMeshとは
- DataMeshが作るData Contract(データ利活用契約):上記4原則を元にどうやってポリシーを作っていくかを図示・
- DataMeshの4原則におけるDatabricksによるデータメッシュのアプローチ
- ドメインでの責任共有:データドメインの責任を持つ組織または部門毎にDatabricksワークスペースを作成
- データを製品として扱う:データをUnityCatalogで管理
- 自動化されたデータ分析基盤:クラスタやSQLウェアハウスを利用し、ETL処理をジョブとして実行/アクセス権限の設定
- 統合されたガバナンス:プロダクトのオーナーは他ドメインのグループまたはサービスなどに公開する対象データを設定
- Databricksはガバナンスを支えるプラットフォーム:データとAIガバナンスを統合
- Uniti Catalog:Databricksが内包するデータカタログ。データ&AIに対する統合ガバナンスを行う
- Delta Sharing:Databricksにおけるデータ共有の仕組み。共有をスムーズに、コピー不要でリアルタイムに共有が可能
- Databricksのメダリオンメッシュパターンでデータメッシュのドメインを作成し、分散型アプローチを利用可能
03. Modern Data StackでもDatabricksを選択可能
04. 本日のまとめ
- Databricksの1枚画紹介における特徴
- Datameshが作るData Contractの紹介
- DatabricksでもModern Data Stackと連携出来ます
- DatabricksとSnowflakeの連携
データ活用支援サービスのご紹介
- 登壇者:鈴木悠斗(クラスメソッド株式会社 アライアンス事業部 セールスグループ)
基本的な内容は前回までの内容と同様のため割愛。過去の紹介内容については下記エントリをご参照ください。
ここでは差分の情報を追加で紹介します。
今回のウェビナー、DatabricksにおいてはAWSと合わせて活用するソリューションを提供しています。
上述記載のCPPOを活用するメリットについてもご紹介致しました。
全体質疑応答
セッション終了後は、全体を通して挙がっていた質問に対する回答タイムとなりました。挙がっていたものの中で主だったものについて下記に記載します。
Q1. 理想的な展開の形は今日説明いただいた構成の内容かなと思うのですが、一足飛びにこれらが出来るとも思えません。どういう順番で展開していくのが良いでしょうか。
- A1. 全体構成図を踏まえた進め方については、まずは出来るところから進めていくという形で良いと思います。また場合によってはツールや手動で泥臭く進めていくというのでも全然アリです。Databricksをいきなり導入するのがToo Muchであれば、まずは、データを集めて、BIツールなので、データを可視化したり、分析をするだけでも良いと思います。
Q2. AWSやGCPでも共有のNotebookのようなものはあったかと記憶しており、ジョブワークフローの機能もあったかと思います。(中略)AWSなどの中の機能を組み合わせるのに比べてDatabricksが良いところはどのようなものがありますか?
- A2. マルチクラウドで対応している、という点が1つ。あと、Databricksは一連の作業を責任を以て提供しているSaaSなので、連携をシームレスに出来るというのが担保されているというのが大きいです。各クラウド環境でもできないことはないと思いますがいざ、各サービスを連携して実行をしようとすると、両サービスの仕組みを良く理解していないと上手く連携して動かすのは大変な場合があります。このような、検証の手間を、Databricksは、全体ソリューションとしてカバーしていると言えると思います。
Q3.「データメッシュ的なデータ分析基盤」で挙がるツールでは、Hub的な役割のものも結構多いように思います。この役割で、なんとなくAPIゲートウェイを想像してしまうのですが、考え方としては近いものなんでしょうか。
- A3. データメッシュのHub的な役割はデータ全体を管理し、ガバナンスを確保することに焦点を当てています。APIゲートウェイは主にアプリケーションやサービスのAPIエンドポイントを管理する役割を果たします。データメッシュのHubは、データに関する一元管理とガバナンスを提供するプラットフォームと考えると理解しやすいかもしれません。
Q4. 事業ドメインが1つだったり少ない場合はDatabricksは時期尚早でしょうか?それなりの規模がないとオーバースペックという印象でした。
- A4. 確かに、事業ドメインをまたいで、データを利用したいという大企業が困る点にデータメッシュのアプローチをお話をしました。Databricksでは、ETL、BI、ダッシュボード、機械学習と幅広くカバーをしていますので事業ドメインが1つで使い始めるのも問題ありません。シンプルで良いです。逆に、Databricksのような仕組みを、自分で組み立てて構築をしていく方がコストがかかります。
まとめ
という訳で、クラスメソッドxメソドロジック共催:イチから始めるデータ活用! 8週連続ウェビナーの第3回、『Databricks編』開催レポートでした。
当レポートのセッション内容について、また施策・御支援内容についてのお問い合わせに関しては下記のサイトから宜しくお願い致します。
次回第3回は2024年03月13日(水)、『イチから学ぶImmuta』編です。お楽しみに!